Deep Learning I
8. 计算机视觉I
WU Xiaokun 吴晓堃
xkun.wu [at] gmail
2021/04/11
对已有数据集扩充,使其更多样
Consumer Electronics Show (CES) 展会案例
问题:每次展会都提前去训练模型?
图像内容、位置的微小变形、偏移
图像内容、位置的微小变形、偏移
色温:暖(黄)、冷(蓝)色调
曝光:整体明度
回顾:数据集大小间接决定模型效能
图像增广可以降低模型对数据的敏感性
减小模型对特定属性的依赖:提高模型的泛化能力
“倒立的凳子”也是凳子
“倒立的凳子”也是凳子
这是只名贵的猫,因为它会倒立
imgaug: https://github.com/aleju/imgaug
图像增广:变换、变形以获得更多样的数据
常见操作:仿射变换、翻转、剪裁;色调、饱和度、明度
现实任务可以认为有无限可能情况
| ImageNet | 通常 | MNIST | |
|---|---|---|---|
| 样本数 | 1.2 M | 500K | 60 K |
| 类别数 | 1,000 | 100 | 10 |
问题:难道模型只能是一次性产品?标注数据不够导致过拟合怎么办?
神经网络可以划分成两个组件
也可以认为是两个处理阶段
微调的本质:将训练好的模型当作特征提取器
微调的本质:将训练好的模型当作特征提取器
首先看目标模型重用全部特征提取器
在目标数据集上正常训练
比直接训练:速度更快、精度更高
迁移学习 transfer learning:将从源数据集学到的知识迁移到目标数据集
根据任务的差异幅度选择提取层级
后面层:概括、特性特征
根据任务的差异幅度选择提取层级
后面层:概括、特性特征
前面层:低级、共性特征
可以固定参数:不参与训练
特殊情况:源数据集含目标数据集的部分标签
图片分类:输出类别标签
目标检测:输出类别标签、位置
“不来梅城市音乐家”
目标检测:输出类别标签、位置
“不来梅城市音乐家”
定义:只需4个数字
多个目标:每行一个物体
目标检测可以看成两个阶段
因此边界框也称备选区域 Region of Interest (ROI)
ROI 调整算法:
以每个像素为中心生成不同形状的边界框
中心点称为“锚点 anchor”
以每个像素为中心生成不同形状的边界框
中心点称为“锚点 anchor”
问题:计算复杂度太高,不可能计算
右图:蓝色框以s=0.75,r=1为参数似乎不错
IoU,也称Jaccard相似度:计算框之间的相似度
J(A,B) = \frac{|A \cap B|}{|A \cup B|}
训练:每个锚框构造、标注一个训练样本
预测:生成多个锚框,逐个预测类别、偏移量
首先考虑标注训练样本(锚框):分配最接近的真实边界框
每个锚框:分配最接近的真实边界框
每个锚框:分配最接近的真实边界框
每个锚框:分配最接近的真实边界框
每个锚框:分配最接近的真实边界框
输出:每个真实边界框对应多个锚框
类别:按照分配情况标记
类别:按照分配情况标记
偏移量:中心点、相对大小
\left( \frac{x_b - x_a}{w_a}, \frac{y_b - y_a}{h_a}, \frac{w_b}{w_a}, \frac{h_b}{h_a} \right)
解决方案:变换位置、大小,使其分布更均匀
\left( \frac{ \frac{x_b - x_a}{w_a} - \mu_x }{\sigma_x}, \frac{ \frac{y_b - y_a}{h_a} - \mu_y }{\sigma_y}, \frac{ \log \frac{w_b}{w_a} - \mu_w }{\sigma_w}, \frac{ \log \frac{h_b}{h_a} - \mu_h }{\sigma_h} \right)
然后看锚框预测:生成多个锚框,逐个预测类别、偏移量
计算边界框:根据偏移量反向调整
计算每个类别的概率:取最大的作为预测类别
计算每个类别的概率:取最大的作为预测类别
生成锚框过于稠密,且相似:增加不必要计算量
NMS:预测框按置信度降序排列,可截断
输出中任意一对预测框都不相似:因IoU小于阈值
以每个像素为中心生成不同形状的边界框
问题:计算复杂度太高,不可能计算
例如:561x728的图像,3种缩放比、宽高比
密集采样完全没必要:生成大量冗余锚框
每个像素点都是锚点
固定间隔、相同宽高比
目标尺寸不同:锚框大小可以、且应该区别对待
行、列都只有2个采样点
行、列都只有1个采样点
锚框大小:等价于感受野尺寸
锚框本质上是利用感受野接受到的信息进行预测
图像增广。微调。实战 Kaggle 比赛:图像分类。目标检测和边界框。锚框。多尺度目标检测。
重点:图像增广;微调;锚框;多尺度均匀间隔采样。
难点:部分重用式微调。
简述图像增广的原因、主要方法。
简述微调的动机、原理、方法。
简述目标检测问题的特点和表示方法。
简述锚框的表示、标注方法,及其在训练、预测中的应用方法。
简述锚框的多尺度均匀间隔采样的方法、含义。